教育评价到底是评什么？目的是什么？谁来评？怎么评？

严文蕃守望新教育 2021-10-25

［置顶关注］［过一种幸福完整的教育生活］

［守望新教育守望真善美］

教育评价到底是评什么？

目的是什么？谁来评？怎么评？

原创｜严文蕃

严文蕃，中国教育三十人论坛成员，美国马萨诸塞大学波士顿分校终身教授，国际比较教育研究院院长，新教育理事会副理事长兼新教育研究中心主任。

严教授在美国高校任职多年，对美国教育体系采用的“University of Wisconsin”的逻辑评价模型有着深入的研究。严教授指出：“一个好评价，不仅要有初期结果的证据，还有中期和长期效果的证据”。在即将到来的12月2日的第五届年会上，严教授将发表关于“教育评价体系”的精彩演讲，敬请期待。

严文蕃教授在中国教育三十人论坛第二届年会上进行演讲

今天的话题是现代教育治理，我想说的是科学研究和评价在教育治理当中的重要作用，特别是大家知道现在提出了管办评分离，还有第三方评价。我想从评价角度来看科研的重要性，以及评价怎么做才是合理的。我打算从评价到底是评什么、评价的目的是什么、然后谁来评、最后怎么评，这几个方面来看，厘清一些误解，更好地理解我们面对的挑战。

关于评价目的

历来关于评价目的有两个争论，到底外部还是内部，问责还是发展提高（Accountability vs. Improvement），这是个需要两者平衡的问题。

外部问责讲究规律性、控制，内部提高讲究自我评价与改善。

外部评价关心的是：是否达到公众期望的标准及专业化水平（问责问题/认证问题）？相关的证据是什么（绩效评估问题）？进步了吗（改善问题）？重点就是问责，其次是绩效评价，当然它也涉及到发展问题。

内部评价更注重以学生为主题，学生该学什么（目标问题）？学到什么（测量评估问题）？该做什么以促进学生学习（改进问题）？更加注重到底以什么来促进学生学习。

近三十年来，评价最明显的一个变化是，由外部逐渐转向内部，由问责逐渐转向以发展为中心的评价。评价机构鼓励自我发展的评价，而不是准备各种评估文件，而待评估专家离开后也就束之高阁了。（《学生的成长才是学校成功的标志——为了成就和成长的教育》）

谁来评价呢？

一种是内部自我评价，另一种是聘请外部人员进行评价（第三方评价）。 实际上不是简单的内外，内部也是分两种，内部人员自我评价和内部专业人员评价。内部人员自我评价最大的问题是什么？容易缺少客观性，同时评价人员本身的评价能力往往有待提高。内部专业人员，比如各个学区、各个教育局有自己的研究院，或者自己的评价中心，他们基本上研究方法、评价方法是合格的，但是问题是评价者依然是局内人。外部第三方评价，在美国最常见是由大学、专业评估公司组成，作为局外人，这种类型的评价人员结构比较合理，但是服务费贵。

是不是完全交给外部就没有问题呢？美国有一些评价公司出的报告也会出现“伪评价”的问题。伪评价就是没有反映真实情况的评价报告。伪评价存在的问题，主要是由于利益关系造成的。一种是政治利益关系，另一种是形象利益关系。为了更好地理解这种利益关系，我们可以分析一下在评价过程当中的四个利益群体：一个是政策制定者，一个是政策执行者，一个是客户，一个是评价者。制定者有他自己的利益关系，执行者也有它的利害关系，客户也有他的利益关系、感兴趣的东西。第三方评价者也有自己的利益关系，关心自己的职业生涯，关心下次是不是还要他评价，这造成了他不一定按照实际来做出真实的评价结果。

评价的价值取向有三种模型：（1）资源/声誉模型 -- 强调财政资源、师资力量、学生成绩、排名等；（2）客户中心模型 -- 学生的满意度、对教师的吸引力、校友反馈第；（3）投资收益模型 -- 强调投资-收益分析，规章制度建设及产出测量，如录取率、毕业率、学位获得持续时间、生均经费等。对于这三种模型，如果按照评价群体来看，各个群体都有自己趋向的一个喜欢的模型。执行者（教师及被认证机构）倾向于接受资源/声誉模型，试图争得更多资源以保证教育有效性；客户（学生与家长）倾向于接受客户中心模型，试图得到所有可能的服务及关注；制定者（官员）倾向于接受投资收益模型，对管理效率、提升产出率及成本控制等感兴趣。第三方评价，在夹缝当中，很容易出问题。所以，第三方评价并不是完全公正的，也会出现为迎合某一个利益方的伪评价问题。

怎么评？

我想举美国University of Wisconsin的逻辑评价模型为例。 最简单的逻辑评价模型包含输入、过程和结果三个部分。细化一下，输入就是项目的干预；过程就是做什么，找谁做；结果包括短期、中期和长期。无论什么结果，都有一个价值观隐藏在里面。什么数据要，什么数据不要，在评价过程当中有一个筛选过程。再详细一些的话，可以把前面三个维度再扩充一下，再分析清楚一些，每个部分都可以建立一些指标体系和变量（见图一）。一个好评价，不仅要有初期结果的证据，还有中期和长期效果的证据。

图一

一些传统的大学本科评估就是按照这个模型来做的。比如，评估一个学校办学，第一个看它的输入，就是办学条件变量，包括学生资质（录取、测验分数），教师资质（博士学位比率、排名），资源、生师比、图书拥有量、体育运动设备、生均经费等。评价关心的大学教育过程的一些变量，包括学位授予点及授予人数，教学量及班级大小，设备使用率、图书借阅率统计，为学生提供的支持性服务及状况，教学质量及学生对教学的评估，科研成果的评估标准，资源的规划与有效使用等等。最感兴趣的还是结果变量，包括学生成绩，授予学位数、毕业率，学生学习与进步，学生及校友的成就，教师发表文章的引用率，教师发表物数量，研究项目及经费，以及研究成果的社会影响及对经济的促进作用。

21世纪以来，美国国家科学院颁布了一系列关于改进教育质量的研究报告、评价报告。美国国家科学院的全国研究理事会特别提出了指导教育科研三个基本问题，主要的就是（1）探寻因果关系（“Is there a systematic effect?” question of causal effects）；（2）描述发生了什么？（“What is happening?”）；（3）解释为什么或怎么发生的？（“Why or how is it happening?”）（NRC’s Committee on Scientific Research on Education，2002) 。

不管哪个评价模型，评价最核心的就是提供证据。不是拍脑袋，而是以证据为主。什么才是证据？美国教育研究院按照是否用比较、对比的科学研究方法，是否有真正的控制组和实验组，是否是随机，是否是处理一致，是否能复制等标准，提出什么算“证据”，什么算“可能是证据”，什么算根本“没有证据”（见图二）。

同样的，联邦资助的机构“有效教育干预信息中心” （What Works Clearinghouse-WWC）制定了一套关于评价教育实验研究的标准，包括四个方面：（1）研究的质量；（2）研究结果在统计学意义上的显著性；（3）控制组和实验组的均分差异值；（4）研究发现的一致性与创新。根据这些标准，WWC对七千多个美国教育干预进行分析，完全符合标准的只有2%，有保留的2%，参加评审但不符合标准的占13%，实际上70%以上都是不符合标准，换句话说，大多数教育干预的效果都是缺乏证据的。我们花了很多钱，做了很多干预，结果就像一些美国学者说的，花了上百万买回来的结果只是一个不确定（million dollar maybes）。可能“有效”，也有可能“没有效果”。

为什么会这样？

重要原因是教育的复杂性。这个地方有效，换一个地方不一定有效；对这个人有效，再换另外一个人又没有效果了。我们一直解决不了三个问题，为什么work，什么条件下work，怎么work。这使我们想到黑匣子（black box) 现象，我们想研究这个黑匣子，想打开黑匣子，但做的实质上是瞎子摸象的事，你摸一把，出一个报告，我摸一把也出一个报告，结果报告结合起来, 却依然无法拼凑起来去完整的解释黑匣子。美国学者对这个现象作了个生动的比喻，说我们整个做的事情像在黑暗当中跳舞，我们舞者不管是政策制定者也好，政策执行者也好，政策受益者也好，评价者也好，大家都看不见对方，都在黑暗当中舞蹈，动作都是非常复杂，但是都受环境影响，这是我们的现状（Klemperer, Theisens, & Kaiser, 2001）。（《一条鱼，不该被迫去爬树》）

怎么改变现状？

一个改变状况的途径就是加强研究方法上更新。如果按照研究是不是考虑基本原理，是不是考虑运用这两个维度来分，我们可以有四种研究范式。单纯基础研究，只考虑原理，不考虑应用。单纯应用研究，只考虑应用，不考虑原理。最差的既没有应用价值，又没有探索原理，就是伪科学、伪评价。最好的，也就是我们最希望采用的研究方法，特别是做评价当中，就是既要借助基础研究，又要考虑应用需要。（《相信孩子，静等花开。也许你的种子永远不会开花，因为他是一颗参天大树——林虹的种子课程》）

严文蕃教授在中国教育三十人论坛第三届年会上进行演讲

另一个改变状况的途径就是加强评价专家队伍的建设。有两类专家，一类专家对于未来的研究和学科的发展产生影响的（has an impact on future research），另一类专家是对于政策产生影响的（has an impact on policy）。一些大学教授在自己学术圈子里面，研究自己的学问，最感兴趣的是他的学问对未来有什么影响，这批专家对政策影响不大。希望大学老师投入到跟政策、干预、评价有关的这方面研究中来，最好要引发一种相互的学术争鸣。一个有意思的美国例子是以大学为依托的两个中心CRPE（重创公立教育中心）和NEPC（国家教育政策中心）关于特许学校争论。重创公立教育中心发表的研究表明，特许学校对学生数学学业成就有中度积极影响。国家教育政策中心的评价则宣称他们的结果证据不足，并提出很多具体的批评。重创公立教育中心的研究者则维护其数据及对结果的解释的真实性。美国常常出现的情况是，公开颁布一个报告，紧跟着会出现另外一个报告讲它的不好之处，这样一种学术争鸣氛围的出现会进一步推动该主题的研究往前走。（《为了成就和成长的教育——万物生长，各自高贵》）

我很欣赏朱永新倡导的新教育实验的行动研究。只要有行动就会有收获，只要行动起来，我们肯定可以不断地打开黑匣子。 美国PDSA行动理论的计划、执行、学习和行动，对干预效果研究提供了一个很好的循环行动研究（见图三）。

好的行动研究的循环还可以不断地重复这四个步骤 (Lingenfelter, 2016)。从开发一个新项目开始，按照这个循环，把新项目在不同条件下测试，在不断增加多变条件下再测试，然后长期做下去（见图四）。

这样，我们就能真正实现以评价数据促进我们的真正现代化教育治理体系的有效作用。

（［守望新教育］小编说明：本文转自［中国教育三十人论坛］，本文是严文蕃教授在中国教育三十人论坛第三届年会暨现代教育治理体系建设高峰论坛上的演讲。）

《守望新教育》特别链接——

了解和加入新教育实验指南（2018最新版）

与美好相约同行——新教育实验历届年会掠影（2018版）

理想与行动的力量——中国新教育实验掠影

用生命书写，用行动言说——田野草根的实践，生命在场的叙事

行动就有收获，坚持才有奇迹——新教育实验十大行动学习培训参考资料

新教育的精神是什么？——解读新教育精神：理想主义、田野意识、合作精神、公益情怀

新教育，在海门大地上穿行——一个区域如何有效推进新教育实验？